http://www.arocmag.com/article/02-2019-11-026.html 


基于 改进 花 条 授粉 的 K- 均 值 聚 类 算法 


陶 志 勇 "， 刘 晓 芳 ^7, x EE, XA 


(1. 辽宁 工程 技术 大 学 电子 与 信息 工程 学 院 , 辽宁 AË É 125105; 2. 息 新 力 兴 科技 有 限 责任 公司 ,辽宁 GT 
123000) 


摘 要 : 4p3] K-means 聚 类 算法 依赖 于 初始 值 并 易 陷 入 局 部 最 优 值 的 问题 ， 提 出 了 一 种 基于 改进 花 采 授粉 的 K-means 
聚 类 算法 。 该 算法 首先 通过 混沌 映射 的 序列 作为 花 采 种 群 的 初 值 位 置 ， 保 证 花 采 种 群 在 搜索 空间 的 多 样 性 、 确 定性 ; 
然后 在 花 采 授粉 的 后 期 搜索 阶段 引入 禁忌 搜索 算法 以 避免 陷入 局 部 最 优 解 ; 最 后 将 改进 后 的 FPA 算法 用 以 优化 K- 
means 算法 的 初 值 。 在 5 个 聚 类 数据 集 上 的 实验 结果 表明 ， 改 进 后 算法 的 平均 聚 类 准确 率 相 比 于 花 采 授粉 聚 类 算法 提 
高 了 12.2%， 证 明了 该 算法 对 于 低 维 数据 集 具 有 更 好 的 聚 类 效果 。 
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K-means clustering algorithm based on improved flower pollination 
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Abstract: In order to solve the problem that k-means clustering algorithm is dependent on the initial value and easily falls into 


the local optimum, this paper proposed a K-means clustering algorithm based on improved flower pollination. Firstly, the 


algorithm used the chaotic map sequence as the initial position of the flower population to ensure the diversity and determinacy 


g h » of the flower population in the search space; Then, it introduced a tabu search algorithm in the late stage of flower pollination 


to avoid falling into the local optimal solution; Finally, used the improved flower pollination algorithm to optimize the initial 


value of the k-means algorithm. Experimental results on five clustering datasets show that the improved algorithm improves the 
average clustering accuracy by 12.296 compared with the flower pollination clustering algorithm, which proves that the proposed 
algorithm has better clustering performance for low-dimensional datasets. 
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0 引言 针对 传统 K-means 算法 对 初 值 中 心 敏感 的 问题 ， 提 出 了 一 种 初 
m 始 化 球形 K-means 算法 , 该 方法 在 初始 化 阶段 随机 扰动 未 知 解 ， 
在 当前 应 月 3 


昌 于 计算 机 数据 分 析 的 各 种 方法 中 聚 类 是 较为 党 为 集群 的 紧凑 性 引入 了 一 种 新 的 评估 度量 方法 ， 该 度量 方法 
见 且 广泛 应 用 的 算法 ， 尤 其 适合 于 进行 模式 识别 、 数 据 挖掘 、 测量 矢量 对 应 聚 类 中 心 的 方向 离散 度 ， 并 根据 离散 度 确 定 最 终 
像 分 析 等 工作 中， 这 种 算法 分 析 的 结果 会 依据 数据 的 相似 度 RKAR. Kumar 等 人 D 将 聚 类 中 心 定 位 在 数据 集 的 高 密度 区 
对 结果 分 类 ， 使 得 相似 度 高 的 数据 划 为 一 类 ， 相 似 度 低 的 数据 确保 每 个 聚 类 中 心 相 隔 较 远 ， 而 密度 区 通过 kd 树 进行 标志 ， 
区 分 到 不 同 种 类 。 此 方法 提高 了 -means 算法 的 聚 类 性 能 ， 但 增加 了 算法 的 时 间 

K-means 因 其 实现 简单 、 收 敛 速度 快 的 优点 而 成 为 常用 的 。 复杂 度 。Bianchi 等 人 欠 提 出 了 一 种 基于 密度 的 非 度量 空间 ， 它 
聚 类 算法 ， 但 其 聚 类 效果 易 受 初始 聚 类 中 心 的 影响 ， 而 随机 选 ”” 使 用 输入 数据 中 最 具有 代表 性 的 模型 估计 聚 类 中 心 ， 该 方法 不 
取 聚 类 中 心 的 方法 易 使 算法 陷入 局 部 最 优 值 ， 为 此 许多 学 者 对 ”依赖 数据 集 的 形状 ,但 算法 的 计算 量 十 分 庞大 。 为 此 ， 学 者 考 
K-means 算法 初始 聚 类 中 心 的 选取 进行 了 改进 。 Duwairi 等 人 外 — 虑 使 用 群 智能 算法 优化 初始 聚 类 中 心 。 如 Hu 等 人 口 将 差分 进 
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化 算法 中 的 差 向 量 代替 果 蝇 算法 的 随机 搜索 ， 结 合 后 的 算法 用 
于 优化 K-means 算法 。Rahman 等 人 中 提出 将 遗传 算法 与 K- 
means 结合 用 于 自动 确定 聚 类 中 心 ， 但 因 遗 传 算法 局 部 搜索 能 
力 弱 并 易 早 熟 ， 导 致 聚 类 精度 不 高 。 王 波 等 人 叫 提 出 了 自 适 应 
布谷 鸟 与 K-means 相 结合 的 算法 , 并 利用 MapReduce 编程 模型 
实现 了 算法 的 并 行 化 ， 但 因 布 谷 鸟 算法 自身 的 缺点 导致 最 终 的 
聚 类 效果 不 理想 且 运 行 时 间 长 。 

花 休 授粉 算法 (flower pollination algorithm, FPA ) 5175 $5 
提出 的 一 种 群 智能 优化 算法 ， 基 础 的 花灯 授粉 算法 由 于 某 些 缺 


T 


和 不 变 。 
1.3 ”花灯 授粉 算法 
花茶 授粉 算法 是 模拟 大 自然 中 开花 植物 授粉 的 群 智能 优化 
算法 。 论 傈 授粉 的 过 程 分 为 两 种 ， 一 种 为 异 花 授粉 ， 其 中 异 花 
授粉 在 大 自然 中 是 指 授粉 过 程 需要 借助 外 力 ， 比 如 蜜蜂 、 昆 忠 
等 授粉 者 且 其 符合 莱 维 飞行 ， 这 一 过 程 在 花茶 授粉 算法 中 称 为 
全 局 搜索 。 自 花 授粉 是 指 花粉 的 传播 不 需要 授粉 者 ， 而 是 利用 
风 进行 授粉 ， 这 一 过 程 为 局 部 搜索 。 算 法 中 的 全 局 搜索 和 局 部 
搜索 由 转换 概率 p 决定。 在 现实 中 ， 每 条 花 可 产生 数 百 万 乃至 


点 已 被 学 者 们 进行 了 改进 , 其 中 国外 学 者 Draa 对 此 进行 了 定性 
和 定量 分 析 四 ; Sayed 提出 了 将 克隆 技术 和 花 杂 授粉 算法 融合 在 

起 的 混合 二 进 制 算 法 , 并 以 此 进行 特征 选择 H; Galvez 提出 
了 一 种 多 模 态 的 花茶 授粉 算法 ， 通 过 多 模式 功能 对 原始 花 休 授 


粉 算法 进行 增强 ， 以 便 在 优化 问题 中 找到 所 有 可 能 的 最 优 解 01。 


国内 学 者 对 FPA 算法 也 进行 了 大 量 的 改进 ， 文 献 [12] 将 差分 进 
化 策略 与 FPA 算法 进行 融合 ,增强 了 种 群 的 多 样 性 ， 提 高 了 算 
法 的 全 局 搜索 能 力 ;， 文献 [13] 在 算法 的 全 局 寻 优 阶段 采用 自 适 
应 步 长 策略 ， 在 局 部 寻 优 阶段 引入 单纯 形 法 以 提高 搜索 能 


文献 [14] 利 用 高 斯 变异 对 全 局 搜索 进行 扰动 以 提高 种 群 多 样 性 ， 


并 加 入 了 Powell 法 以 提高 局 部 开发 能 力 。 虽然 以 上 文献 对 FPA 


更 多 的 花粉 ， 为 了 简化 问题 ， 在 算法 中 假设 每 颗 显 花 植 物 仅 有 
一 薪 花 每 休 花 仅 有 一 个 花粉 ， 这 意味 着 一 条 花 或 一 个 花粉 对 应 
优化 问题 中 的 一 个 解 。 
花 杂 授粉 算法 需要 达到 以 下 理想 条 件 : 
a) 生物 异 花 授粉 过 程 中 携带 花粉 的 传播 者 ( 鸟 、 蜜 蜂 等 ) 
通过 莱 维 飞行 进行 全 局 授粉 ; 

b) 非 生物 自 花 授粉 是 指 算法 中 的 局 部 搜索 过 程 ; 

c) 花 的 常 性 是 指 繁衍 概率 , 繁衍 概率 与 参与 的 两 杂 花 的 相 
似 性 成 比例 关系 ; 
d) 转换 概率 p € [0,1] 决定 全 局 搜索 和 局 部 搜索 之 间 的 转换 ， 
于 风 和 物理 距离 等 其 他 因素 的 影响 ， 在 整个 授粉 过 程 中 ，P 


算法 的 寻 优 能 力 进行 了 改进 ， 但 其 仍 存 在 收敛 速度 慢 、 寻 优 精 
度 低 的 缺点 。 
基于 此 ， 本 文 提 出 一 种 结合 混沌 理论 和 禁忌 搜索 的 花茶 授 
粉 算法 。 该 算法 首先 利用 混沌 理论 初始 化 花茶 种 群 ， 增 加 种 群 
的 多 样 性 ， 加 快 算法 的 迭代 速 其 次 在 搜索 后 期 引入 禁忌 搜 
索 ， 避 免 算法 陷入 局 部 最 优 解 ， 然 后 将 改进 后 的 花 条 授粉 算法 


Rẹ 


值 的 选取 非常 关键 ; 

寻 此 ， 以 上 理想 条 件 在 花灯 授粉 算法 可 以 用 数学 公式 进行 

描述 。 当 p> rand 时 ， 算 法 执行 全 局 授粉 ,可 由 式 (2) 实现 。 
x" =x, + yL. x) 2) 

其 中 : xU. x Sa E RAE CIR 8RR AAE 

群 中 的 最 优 解 ，7 是 控制 步 长 的 缩放 因子 ,本 文中 y =1，Z(4) 


应 用 于 K-means 算法 上 ， 以 确定 聚 类 中 心 ， 增 强 了 聚 类 效果 。 


1 ， 聚 类 算法 和 花 条 授粉 算法 


1.1 聚 类 相关 问题 

聚 类 问题 是 指 ; 对 于 一 个 样本 数 为 n 的 数据 集 
esL, 将 其 划分 为 个 类 , REC (0C, 6]. 
据 聚 类 的 目的 是 尽量 减 小 数据 间 的 距离 ， 即 减 小 数据 点 和 它 所 
必 集 合 的 中 心 (C, )， 表 达 式 为 


MSE - > min] -Oi [12 () 
i=l 


其 中 : Y GERD, 
1.2 K-means 算法 

传统 的 K-means 算法 是 从 数据 集 随机 选择 k 个 数据 点 作为 
初始 聚 类 中 心 ， 对 于 剩 下 的 点 分 配给 离 其 最 近 的 聚 类 中 心 ， 然 
后 将 每 一 类 的 平均 值 作为 新 的 聚 类 中 心 ， 循 环 这 一 过 程 。K- 
means 算法 的 过 程 如 下 : 

a) 随 机 选择 k 个 点 作为 聚 类 中 心 。 

b) 确 定 剩 余数 据点 到 其 最 近 的 聚 类 中 心 。 

c) 重 新 计算 聚 类 中 心 。 

d) 重 复 这 一 过 程 直 到 每 个 数据 点 和 最 近 的 数据 中 心 的 平方 


C; 是 聚 类 中 心 。 


表示 对 应 于 花 条 个 体 的 莱 维 飞行 位 移 ，Z(4) 的 表示 式 如 下 : 


L(A) ~ ;G»»5 20) G) 


aN 
I(A) Sin m) 1 
c s 


Hop. DOO MW. A-3/2, s 由 式 (4) 决定 。 


s= ut ~ N(0,0°),v ~ N(0,1) (4) 


u 
M” 


AHAJ o^ 由 式 〈5) 得到: 


"X. 
;| Ta+4) MSN (5) 
piper å 
A 22 
25 p«rand 时 ， 算 法 进行 局 部 授粉 ， 如 式 (6) 所 示 。 
x eX ue -x) (6) 


Kup: celol, x ERRER i, MAE Xj. x2) 


代表 同 种 植物 的 不 同 花 条 的 花粉 ， 等 同 于 种 群 的 两 个 随机 解 ， 
可 增强 种 群 的 多 样 性 ， 从 而 提高 算法 的 局 部 搜索 能 


2 ”改进 的 花灯 授粉 算法 


基本 的 花灯 授粉 算法 存在 如 下 两 个 缺点 ，a) 种 群 缺 乏 多 样 
E; b) 收 敛 速度 慢 ， 易 陷入 局 部 最 优 。 针 对 缺点 a) 本 文 引用 混 


HE 


201808.00086v1 


chinaXiv 


录用 稿 
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列 来 增强 多 样 性 ， 针 对 缺点 


b) 本 文 在 后 


TA Ch 
AN IUS 


2.1 


增加 
降低 


论 对 


沌 序列 因 本 身 具 有 遍历 性 ， 相 比 于 


沌 变 
部 最 
空间 
ES 
使 花 


M 


式 如 


0-1. 


群 仍 
降低 
T 
前 


发 式 
术 ， 

过 的 
或 有 
所 示 
AX 


敏感 ， 


随机 初始 


搜索 表 ， 使 花粉 以 较 快 速度 找到 最 优 解 。 


混沌 优化 策略 
花 条 授粉 算法 如 常见 的 

因 其 在 初始 化 阶段 使 
和 迭代 次 数 ， 尤 其 在 处 理 
整体 的 速度 和 精度 。 


用 随机 初始 
复杂 的 非 线性 
[混沌 序列 因 其 
化 种 群 分 布 不 理想 的 缺陷 。 


化 


自身 


混沌 序列 已 经 被 应 | 
于 增 


于 大 量 的 演化 算法 ， 
加 种 群 多 样 性 、 提 高 算法 的 收敛 速度 


期 搜索 阶段 引用 


同时 


启发 式 优化 算法 一 样 对 初始 值 比较 
和 多 模 态 的 问题 时 会 
的 特性 可 以 弥补 


bb 证明 该 理 


有 


可 行 性 。 泥 


量 进行 优化 搜索 更 有 优越 性 


目 无 序 的 
同时 


优 解 的 缺点 。 其 基本 原理 是 将 待 优化 的 未 知 
《[0,1] )， 利 用 混沌 映射 规则 ,在 混沌 空间 中 搜索 ， 并 将 搜 


得 到 的 解 映射 下 


A^ et fis [n 


X CD 所 示 05。 


Xa 7 ox tx) 


其 中 : a 是 混沌 系数 ， ce[0,4] , 本 文 取 Q=4 o 


使 用 混沌 序列 初始 


生成 一 个 具有 nn 个 花粉 的 种 群 P; 然后 
P 对 应 的 混沌 种 群 CP。 


于 此 方法 对 于 


随机 
寺 可 减 小 演化 算法 陷入 局 


E 
里 


, 


在 式 (7) P, xa EBENE 9], xa 的 范围 


搜索 利用 混 


映射 到 混沌 


原始 空间 。 用 混沌 序列 初始 化 种 群 ， 可 以 
进行 遍历 搜索 ， 克 服 原 始 花 杂种 群 初始 化 
分 布 不 均匀 的 问题 。 有 多 种 生成 混沌 序列 的 泥 沪 
] Logistic map 来 产生 泥沼 


映射 ， 本 文 使 
序列 的 初始 花茶 种 群 


其 函数 的 形 


(7) 


在 


化 花 条 种 群 的 过 程 为 : 首先 随机 初始 化 


使 


TX CD 产生 与 种 群 


然 有 初始 
求解 精度 、 
用 式 (7) 进 行 


kin. 


算法 ， 与 常见 的 
即 禁 面 


LER nii T 
局 部 最 优点 ， 在 下 一 次 搜索 


沌 解 较 优 ， 则 使 用 混沌 解 蔡 代 当 


搜索 算法 (tabu search, TS) 是 


th I 
EJ 


混沌 方式 得 到 的 种 
化 的 个 体 ， 为 了 减 小 这 部 分 个 体 对 整体 种 群 造 成 
减 慢 收 敛 速度 的 影响 ， 对 每 次 迭代 得 到 的 最 优 
次 混沌 映射 ,得 到 的 混沌 解 与 最 优 解 对 比 ， 
前 最 优 解 ， 否 则 ， 保 留 当 


Ea 


个 | 


于 局 部 优化 的 


rH 


陶 志 勇 ， 等 
a) 对 所 有 参数 进行 初始 化 。 


b) 对 种 群 P 中 的 nn 个 花粉 使 用 


计算 每 个 花粉 mos n 的 适应 度 fO) 。 


9 对 初始 花 群 进行 一 次 开 - 均 


Logistic Map， 利 用 式 CDD 


ERX, H 


次 利 


JR (1) 对 每 


个 花粉 的 适应 度 值 进行 计算 ， 记 录 当 前 所 得 到 的 全 局 最 优 解 和 


其 对 应 的 最 优 值 。 
d) 
对 解 进行 越界 处 理 。 
e) 如 若 p<rand , 
进行 越界 处 理 。 


4i porand ， 则 利用 式 (20 对 所 得 到 的 解 进行 更 新 ， 


那么 根据 式 〈6) 对 解 进行 更 新 ， 并 对 解 


£ft. d)e) 得 到 新 解 


则 保留 未 更 新 的 解 和 其 


RK, Jf] 


适应 度 1 


的 适应 度 值 与 未 更 新 的 解 进行 比较 ， 
新 解 的 适应 度 更 优 ， 则 用 新 解 蔡 换 未 更 新 的 解 作 
直 。 对 新 花粉 进行 一 次 K-means 
划分 后 形成 的 新 聚 类 中 心 更 新 花粉 。 


Ez 
加 


Au. E 


gu t>[N_iter/2] 


转 至 Step8, 
hb) 利用 TS 算法 的 基本 步骤 对 新 种 群 进行 
i) 判断 结束 条 件 , 若 满足 ， 则 输出 聚 类 


否则 转 至 Step4。 


局 部 寻 优 。 


结果 ; 否则 转 至 d)。 


给 定 算法 参数 ， 随 机 产生 初始 解 ， 设 


六 
% 


结束 搜 卖 ， 输 出 优 是 — 一 
uir dd p — m 


由 当前 解 产生 邻 域 解 ， 确 定 候选 解 


将 满足 犁 视 准 则 的 解 作 为 当前 解 ， 


其 对 应 的 对 象 蔡 换 最 早 进入 禁忌 列 一 di 


表 的 对 象 ， 更 新 最 优 状 态 


x 


M 
3f ARE i a ELE JU 
à -一 


— 


人 


iil 


将 非 禁忌 对 象 对 应 的 最 佳 解 作 为 当前 解 ， 


选择 地 搜索 这 些 点 09。 


上 述 过 程 使 ) 


局 部 优化 算法 不 同 的 是 该 算法 采 / 
的 工作 ， 使 用 一 个 禁忌 表 记 录 下 已 经 到 达 
FPF， 利用 禁忌 表 中 


JA ati 


的 信息 不 再 


流程 和 


E 


Z] 


描述 如 图 1 


。 采 用 的 停止 条 件 :给 定 每 次 运行 后 总 循环 的 次 数 ， 即 最 大 


基于 改进 花 打 授粉 的 K- 均 值 聚 类 算法 


。 该 算法 的 基本 


KR 


FPA 


2S, Bi 


j 聚 类 获得 


改进 后 的 FPA 算法 计算 步骤 描述 如 下 : 


基于 以 上 两 点 改进 提出 了 基于 改进 花 杀 授粉 的 上 均值 聚 类 
思想 是 : 通过 改进 的 FPA 算法 进行 一 次 迭 
EE， 将 得 到 的 新 位 置 作为 K-means 算法 的 初始 点 并 进行 一 
的 新 的 中 心 点 更 新 花 群 ， 反 复 交 蔡 执行 
算法 和 K-means 算法 直至 算法 结束 。 


并 用 该 对 象 替换 最 早 进入 禁忌 列表 的 对 象 EN 
图 1 禁忌 搜索 流程 
4 ”仿真 实验 与 结果 分 析 
为 了 验证 本 文 算法 的 优越 性 及 有 效 性 ， 采 用 两 组 实验 对 改 
进 算法 进行 验证 ， 第 一 组 实验 是 对 本 文 算法 、 文 献 [12] 算 法 


(DEFPA )、 标 ; 


E FPA 算法 、 差 分 进化 算法 (differential evolution, 


DE) 算法 、 粒 子 群 算法 (particle swarm optimizati- on，PSO ) 
算法 及 人 工蜂 群 算法 (artificial bee colony, ABC) 分 别 在 5 个 
数据 集 上 进行 算法 有 效 性 测试 第 二 组 实验 是 对 数据 集 的 聚 类 
能 力 进行 测试 。 实 验 环 境 : CPU 为 mter Core i3-2350， 内 存 为 


4GB， 操 作 系 统 为 Window 7, 
4.1 改进 FPA 算法 性 能 测试 


在 本 节 中 ,选取 了 5 个 数据 集 来 验证 所 提出 算法 的 有 效 性 ， 


开发 软件 为 Matlab2015a。 


其 中 包括 2 个 人 工 数 据 集 和 3 个 实 
， 每 个 算法 


选取 )。 对 于 这 些 数据 集 


际 数 | 


优 值 、 最 差 值 、 平 均值 和 标准 人 
6 H, B 


中 粗 体 表示 本 文 算法 优 了 


据 集 (从 UCI 机 器 库 中 
分 别 运行 20 次 ， 得 到 的 最 
扁 差 分 别 记录 在 表 1、2、4、5、 
F 另 两 个 算法 ， 下 划 线 表示 其 


他 算法 更 好 。 针 对 每 个 数据 集 


和 算法 收敛 曲 


线 如 图 2~6 所 示 。 
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其 中 人 工 数据 集 


1 (art1) 是 


个 3 维 5 类 包含 250 个 样本 


点 的 数据 集 ， 每 一 类 服从 均值 分 布 ， 分 别 为 U1(85,100)， 
U,(10,85) , U,(55,70) , U,(40,55) ,U,(25,40) 71; X 1 列 出 了 artl 


数据 集 的 算法 比较 ， 算 法 的 收敛 


线 如 


图 2 所 示 。 


表 1 在 artl 上 各 算法 适应 度 比 较 


算法 最 优 值 最 差 值 均值 标准 偏差 
本 文 算法 1709.31 2105.73 1984.45 189.98 
DEFPA 1806.67 2109.28 1978.65 86.02 
FPA 1977.74 2418.71 2173.41 115.49 
DE 1752.89 2495.90 1992.03 200.67 
PSO 1773.82 2444.89 2205.41 312.73 
ABC 1902.56 2206.78 2079.42 107.49 


和 迭代 次 数 


区 | 


2 各 算法 在 artl 上 的 收敛 图 


表 2 在 art2 上 各 算法 适应 度 比 较 


法 最 优 值 最 差 值 均值 标准 偏差 
本 文 算法 512.05 512.07 512.06 2.13e-12 
DEFPA 513.67 515.45 514.07 0.52 
FPA 517.18 568.86 538.64 14.96 
DE 512.01 514.21 513.94 0.08 
PSO 513.90 514.20 513.95 0.04 
ABC 514.69 53442 518.32 4.43 
1300 i 
s -本文 算法 
1200|， -*- DEFPA 
-=-= FPA 
1100], * --- DE 
es * -«- PSO 
` -- 
,,,1000 V ABC 
W LI 
Li 
应 900, \ ， 
NM 
HE S00- TAS 
In Mi 
70. Wi 
Mex. -9 ` iom 
los tuo M T 
600 i s Wu ~~ b E LN — 
M o M e nn MÀ 
500 二 -一 人 
25 50 75 100 125 150 175 200 
迭代 次 数 


在 6 个 算法 中 最 好 ， 其 


区 | 


3 各 算法 在 art2 上 的 收敛 


Ea 


表 2 可 知 ， 本 文 算法 的 最 优 值 、 最 差 值 、 均 值 、 标 准 差 


中 适应 度 的 大 小 表示 聚 类 效果 的 好 坏 ， 


适应 度 越 小 表示 聚 类 效果 越 好 ， 本 文 算法 的 最 优 适应 度 


FPA 算法 


5.13， 且 标准 差 


KT 
本 文 算法 的 聚 类 效果 


接近 于 0， 表 


明 


表 1 可 知 ， 本 文 算法 的 最 优 值 、 最 差 值 均 优 于 其 余 5 个 ” 明显 , 稳定 性 较 好 。 由 图 3 可 知 ， 本 文 算法 在 25 次 迭代 之 内 以 
算法 , 虽然 DEFPA 算法 的 均值 和 标准 偏差 较 小 , 但 其 最 优 值 较 。” 较 快速 度 接近 全 局 最 优 解 ,在 25-50 次 迭代 之 内 即 达 到 最 优 解 ， 
差 。 同 时 由 图 2 的 6 条 仿真 曲线 可 知 ， 与 其 他 5 个 算法 相 比 ， 这 表明 本 文 算法 的 全 局 和 局 部 搜索 能 力 有 明显 增强 ， 能 精准 确 
本 文 算法 的 适应 度 曲 线 较 平滑 ， 且 收敛 速度 更 快 。 这 主要 是 定 聚 类 中 心 ， 提 高 聚 类 效果 。PSO 算法 在 50 次 迭代 达到 的 最 


于 本 文 算法 在 初始 阶段 加 入 混沌 策略 增强 了 全 


快 了 收敛 速度 ， 
区 域 。 虽 然 相 上 


同时 禁忌 列表 的 引 


入 保证 了 算法 避 开 局 部 最 优 
上 DEFPA 算法 在 迭代 初 共 


局 搜索 能 力 ， 


优 


Ix 


=j 


值 与 本 文 算 法 相近 ， 但 
Jo DEFPA 算法 在 25-50 


聚 类 效果 没有 较 大 程 


度 的 改善 ， 但 在 25 次 迭代 之 内 本 文 算法 有 找到 最 优 解 的 趋势 。 


寻找 


ATHEA 


数据 集 ， 所 有 的 数据 点 


布 形式 如 式 (8 


i=1,2,3,4,m 
其 中 : 4 和 也 分 别 表示 均值 向 量 和 协 方差 矩阵 [7。 
据 集 2 的 算法 比较 如 表 2 所 示 ， 算 法 收敛 情况 如 


相 比 于 DEFPA 算法 和 DE 算法 ，PSO 算法 的 平均 适应 度 略 大 ， 
但 在 迭代 50 次 能 较 快 地 趋 于 最 优 解 ， 收 敛 速 度 更 快 ，ABC 算 
法 和 FPA 算法 随机 初始 种 群 ,导致 在 75 次 迭代 之 前 表现 较 差 ， 
最 优 解 能 力 较 差 。 


E2 (art2) 是 一 个 2 给 


4 类 包含 600 个 样本 点 的 


4 个 独立 的 双 变量 正 态 分 布 组 成 ， 分 


) 所 示 。 


se 


.5 0.05 
05 | (8) 
3,m, =0,m, =3,m, =6 
对 于 人 工 数 


PA] 


3 所 示 。 


前 


已 陷入 局 部 最 休 
期 聚 类 效果 较 差 ， 且 


度 减 慢 。FPA 算法 初始 阶 


因 局 部 搜索 能 力 较 弱 ， 其 易 陷入 局 部 


次 迭代 之 间 适 应 度 变 化 不 大 , 表明 


ùo ABC 算法 的 初始 阶段 随机 选择 聚 类 中 心 导致 


在 


局 部 最 优 解 附近 多 次 迭代 导致 收敛 速 
段 表现 良好 ， 但 寻找 聚 类 中 心 的 能 力 


较 弱 ， 导 致 聚 类 适应 度 最 高 。 
从 UCI 中 选取 的 3 个 真实 数据 集 08 的 各 项 属性 如 3 表 所 
示 。 
表 3 数据 集 属性 
数据 集 样本 点 维 数 类 别 数 
Iris 150 4 3 
Wine 178 13 3 
Heart 270 13 2 
其 中 3 个 数据 集 的 算法 比较 值 在 表 4~6 中 ， 收 敛 情 况 如 图 
4~6 所 示 。 
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表 4 在 Iris 上 的 算法 适应 度 比 较 
算法 最 优 值 最 差 值 均值 标准 偏差 
本 文 算法 94.56 94.56 94.56 7.8e-13 
DEFPA 96.67 97.09 96.34 0.23 
FPA 97.47 103.57 99.79 1.68 
DE 96.65 105.85 97.57 2.00 
PSO 96.65 127.66 105.96 14.57 
ABC 97.14 100.29 98.10 0.68 
220 
] e— 本 文 算法 
200 -*- DEFPA 
41 =*=- FPA 
v 
1803 -+- DE 
S - =- PSO 
适 160 “À ZAZ ABC 


图 4 各 算法 在 Iris 上 的 收敛 图 


从 表 4 可 以 看 出 ， 本 文 算法 的 最 优 值 、 最 差 值 、 均 值 、 标 


一 < 


means 


于 将 解 


HRS 中 心 , 提 


映射 到 泥潭 


住 偏差 均 优 于 其 余 5 个 算法 ， 适 应 度 均 值 与 PSO 算法 低 11, 
表明 引入 Logistic 映射 和 和 


0 禁忌 表 的 FPA 算法 可 准确 确定 k- 


高 聚 类 精度 。 


区间 ， 增 加 了 未 知 解 搜索 


结合 图 


到 4 可 知 


| 在 初期 阶段 ， 


区 域 ， 使 得 算法 


的 适应 度 变 


化 较 快 。 在 搜索 后 期 ， 


解 ,使 算法 不 


局 


限于 


局 部 空间 
DE、DEFPA、PSO、ABC 算法 可 达 至 


于 禁忌 表 记 录 已 搜索 过 的 
的 开采 能 力 ,避免 了 
上 相同 的 最 优 解 ，PSO 前 期 


表现 较 差 ， 但 收敛 速度 极 快 。FPA 算法 的 收敛 速度 较 缓 慢 ， 所 


达到 的 最 优 解 也 非 最 优 。 
表 5 在 wine 上 的 算法 适应 度 比较 
算法 最 优 值 最 差 值 均值 标准 偏差 
本 文 算法 16293.67 16294.37 16293.76 0.87 
DEFPA 16296.48 16306.91 16299.75 2.76 
FPA 16322.06 16381.60 16343.73 16.14 
DE 16336.35 18124.03 16876.52 512.39 
PSO 16293.89 16297.61 16294.22 1.19 
ABC 16391.45 17439.25 16706.49 249.14 


E 


KẸ 


图 5 


IKARAZ 


各 算法 在 wine 上 的 收敛 图 


AK S up. 在 


wine 数据 集 下 ， 本 文 算法 的 最 优 值 、 最 差 


值 、 均 值 、 标 准 偏差 均 
表明 本 文 算法 每 次 迭 


— 


也 算法 ,标准 差 低 于 DE $E 511.52, 


的 适应 度 相 差 较 小 ， 聚 类 稳定 性 更 


优 于 其 
REZI 


好 。 


HH FT d Jw / 
m 后 期 的 适 点 值 更 小 于 
最 优 值 。 虽然 DEFPA 


图 5 可 知 , 在 迭代 初 
法 更 大 ,但 在 第 25 次 迭代 可 与 DEFPA 算法 达到 相同 的 适应 


期 ， 本 文 算法 适应 度 相 比 DEFPA 算 
[B 
DEFPA 算法 ， 且 在 迭代 后 期 最 先 收敛 到 
算法 的 最 优 解 与 本 文 算法 一 致 , 但 是 迭代 


速度 较 慢 。FPA 算法 总 体 状 态 优 于 PSO、DE、ABC 算法 , DE, 


ABC 虽然 可 得 到 较 好 最 


速度 收敛 到 最 优 解 。 


解 ， 但 收敛 极 慢 ，PSO 算法 可 以 较 快 


表 6 可 知 ， 本 


差 均 最 好 ， 最 优 值 低 于 ABC 算法 49.56， 表 明 本 文 算法 可 准确 
的 确定 聚 类 中 心 ,， 达到 稳定 聚 类 效果 。 从 图 
与 本 文 算法 的 收敛 情况 均 较 好 ， 在 25 次 迭代 之 内 本 文 算法 即 


— 


文 算法 的 最 优 值 、 最 差 值 、 均 值 、 标 ; 


6 可 看 出 , DE 算法 


接近 最 优 解 ， 而 DE 算法 则 在 25~50 次 迭代 之 间 收 敛 缓 慢 ， 未 


能 避 开 局 部 最 优 区 域 
不 适当 的 参数 会 导致 
已 搜索 过 的 
DEFPA、PSO 算法 初 


局 部 解 ， 


iE, FPA 算法 与 本 文 算法 
测 和 局 部 开采 能 力 较 弱 ,使 得 收敛 速度 缓慢 ，ABC 算法 因 其 易 


。 其 主要 原因 是 DE 算法 对 参数 设置 敏感 ， 
局 部 最 优 问题 ， 而 本 文 算法 的 禁忌 表 存 储 
避免 了 多 次 搜索 从 而 跳出 局 部 区 域 。 

期 下 降 更 快 ， 但 离 最 优 解 较 远 ， 还 需 多 次 
相近 的 初始 适应 度 ， 但 


EX] 48) E 


早熟 且 局 部 寻 优 能 力 较 弱 导 致 适应 度 偏 高 且 不 易 达到 最 优 值 。 
表 6 在 Heart. 上 的 适应 度 比较 
算法 最 优 值 最 差 值 SE 标准 偏差 
本 文 算法 10623.93 10624.79 10623.78 0.02 
DEFPA 10624.28 10624.98 10624.78 0.52 
FPA 10630.40 10646.41 1063.98 4.01 
DE 10628.37 11283.58 10739.11 173.61 
PSO 10624.20 10624.91 10624.67 0.11 
ABC 10673.49 11148.80 10795.84 110.15 
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图 


6 ”各自 


75 
i% 


从 以 上 


法 在 Heart. 上 的 收敛 
的 实验 中 可 以 发 现 ， 本 文 算 法 在 5 个 数 


100 125 


代 次 数 


图 


值 、 最 差 值 、 


均值 和 标准 差 优 于 其 他 
较 强 的 稳定 性 和 重 棒 性 。 同 时 本 文 算法 在 欠 代 初 其 
序列 ， 提 高 了 种 群 多 样 性 ， 使 得 算法 收敛 速度 、 全 局 搜索 能 


和 法， 显示 


据 集 上 的 最 
了 新 算法 具 
加 入 了 混 


陶 志 勇 ， 等 : 基于 改进 花 采 授粉 的 开 - 均 值 聚 类 算法 


1.28%， 在 Heart 数据 集中 比 最 优 的 DEFPA 算法 高 出 4.8996, 


这 说 明 本 文 算法 
花粉 找到 聚 类 效果 最 优 的 
现 出 较 好 的 聚 类 效果 ， 聚 类 ; 


了 较 强 全 局 搜索 和 避免 局 部 最 优 的 能 力 ， 能 使 
解 。 而 DEFPA 算法 在 wine 数据 集 表 
ETAZ H E e F DE, PSO, ABC 算 


ik, FPA 算法 对 每 个 数据 集聚 类 效果 都 不 理想 ，DE 算法 对 Iris 
数据 集聚 类 效果 较 好 ， 准 确 率 可 达到 84.7196, PSO 算法 对 artl 
数据 集聚 类 能 力 最 好 ， 高 于 FPA 算法 11.38%, ABC 算法 的 聚 
类 结果 与 FPA 相近 。 

5 RE 


段 加 入 混沌 序列 和 在 后 
初始 化 和 易 陷 入 局 部 最 


本 文 首先 提出 了 一 种 改进 的 花 条 授粉 算法 ， 分 别 在 初始 阶 
期 引入 禁忌 搜索 ， 以 解决 原始 算法 随机 
优 解 的 问题 。 随 后 ， 针 对 k-means 算法 


前 


期 易 受 初始 簇 类 中 心 的 影响 ， 在 数 ] 


昌 聚 类 中 会 导致 聚 类 结果 


不 精确 和 不 稳定 ， 结 合 改 进 的 花 杂 授粉 算法 和 k-means RK, 
提出 了 一 种 


有 明显 提高 ; 而 在 
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里 想 ， 初 始 的 适 
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化 的 部 分 。 而 在 不 
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i 


ABC 算法 表现 各 


能 更 好 ，DEFPA 次 之 ，ABC 和 FPA 最 差 ， 同 时 


期 加 入 禁忌 搜索 ， 可 增强 算法 跳出 局 部 
多 解 的 能 力 。 但 对 于 部 分 数据 集 本 文 算法 在 迭代 初期 表现 不 
高 ， 甚 至 高 于 FPA 算法 ， 这 将 是 进 
的 数据 集 
不同 ， 从 整 


步 
F DEFPA, FPA, DE, PSO, 


体 可 以 看 出 PSO 和 DE 算法 性 


明 针 对 不 同 的 数 
4.2 


^f 
ZW 


| 此 次 实验 可 说 
采用 适合 的 算法 可 得 到 较 好 的 聚 类 结果 。 
改进 算法 的 聚 类 实验 
在 上 一 节 中 进行 了 大 量 的 数值 
文 算法 在 解决 聚 类 问题 有 一 定 的 有 效 性 
是 一 种 收敛 速度 更 快 、 稳 定性 更 高 、 可 避免 


模拟 实验 ， 实 验 结果 显示 本 
司 时 也 表明 本 文 算 法 
局 部 最 优 解 的 算法 。 


在 本 节 中 ， 采 用 上 一 节 所 使 用 的 6 个 算法 和 5 个 数据 集 进 行 聚 
KKE, TRIER 50 次 的 平均 聚 类 准确 率 进 一 步 分 析 算 
法 性 能 。 
表 7 聚 类 准确 率 的 平均 值 
算法 artl art2 Iris wine Heart 
本 文 算法 97.92 — 96.78 96.41 93.76 76.28 
DEFPA 9021 91.62 93.78 92.48 71.39 
FPA 83.0 — 84.06 90.16 79.02 63.92 
DE 9225 93.82 94.71 76.25 70.83 
PSO 94.39 95.06 93.02 80.24 71.37 
ABC 8461 88.7 92.73 76.41 52.74 
d 7 可 以 看 出 ， 本 文 算 法 在 5 个 数据 集 上 的 聚 类 准确 率 


均 优 于 其 他 算法 ， 
局 搜索 能 力 增 强 ， 
度 。 相 比 另 

artl 数据 集中 比 最 


比 最 优 的 PSO 算法 高 


能 够 
5 个 算法 ， 本 文 算 法 的 聚 类 ; 
优 的 PSO 算法 高 出 3.53%， 在 art2 数据 集 


了 效 的 跳出 局 部 最 全 


r3 L| 
zia 


H 1.729. dE Iris 数据 集 品 


算法 高 出 1.796, Æ wine 数据 全 


说 明 加 入 混沌 序列 和 禁忌 搜索 ， 使 得 算法 全 
"ME GNE P 
E 确 率 有 很 大 提高 ， 在 


H 


FPF 比 最 优 的 DE 
居中 比 最 优 的 DEFPA 算法 高 出 


文 算法 可 提 
的 问题 。 


能 精准 确定 聚 类 中 心 的 聚 类 算法 。 实 验 结果 表明 本 


高 聚 类 效果 ， 加 快 寻 优 能 力 ， 同 时 避免 了 局 部 最 优 
但 本 文 算法 在 时 间 复 杂 度 上 表现 较 差 ， 初 始 适 应 度 较 


高 ,对 于 高 维 数据 集聚 类 效果 较 差 , 这 些 将 是 下 一 步 研究 内 容 。 
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